我们使用隐式表达式从事件数据提出了一部新颖的运动跟踪框架。我们的框架使用预先训练的事件生成MLP命名为隐式事件生成器(IEG),并且通过基于从当前状态估计的所观察到的事件和生成的事件之间的差异来更新其状态(位置和速度)来进行运动跟踪。差异由IEG隐式计算。与传统的显式方法不同,需要密集的计算来评估差异,我们的隐式方法直接从稀疏事件数据实现有效状态更新。我们的稀疏算法特别适用于计算资源和电池寿命有限的移动机器人应用。为了验证我们对现实数据的方法的有效性,我们将其应用于AR标记跟踪应用程序。我们已经证实,我们的框架在噪音和背景混乱存在下的现实环境中运作良好。
translated by 谷歌翻译
This study targets the mixed-integer black-box optimization (MI-BBO) problem where continuous and integer variables should be optimized simultaneously. The CMA-ES, our focus in this study, is a population-based stochastic search method that samples solution candidates from a multivariate Gaussian distribution (MGD), which shows excellent performance in continuous BBO. The parameters of MGD, mean and (co)variance, are updated based on the evaluation value of candidate solutions in the CMA-ES. If the CMA-ES is applied to the MI-BBO with straightforward discretization, however, the variance corresponding to the integer variables becomes much smaller than the granularity of the discretization before reaching the optimal solution, which leads to the stagnation of the optimization. In particular, when binary variables are included in the problem, this stagnation more likely occurs because the granularity of the discretization becomes wider, and the existing modification to the CMA-ES does not address this stagnation. To overcome these limitations, we propose a simple extension of the CMA-ES based on lower-bounding the marginal probabilities associated with the generation of integer variables in the MGD. The numerical experiments on the MI-BBO benchmark problems demonstrate the efficiency and robustness of the proposed method. Furthermore, in order to demonstrate the generality of the idea of the proposed method, in addition to the single-objective optimization case, we incorporate it into multi-objective CMA-ES and verify its performance on bi-objective mixed-integer benchmark problems.
translated by 谷歌翻译
Edema is a common symptom of kidney disease, and quantitative measurement of edema is desired. This paper presents a method to estimate the degree of edema from facial images taken before and after dialysis of renal failure patients. As tasks to estimate the degree of edema, we perform pre- and post-dialysis classification and body weight prediction. We develop a multi-patient pre-training framework for acquiring knowledge of edema and transfer the pre-trained model to a model for each patient. For effective pre-training, we propose a novel contrastive representation learning, called weight-aware supervised momentum contrast (WeightSupMoCo). WeightSupMoCo aims to make feature representations of facial images closer in similarity of patient weight when the pre- and post-dialysis labels are the same. Experimental results show that our pre-training approach improves the accuracy of pre- and post-dialysis classification by 15.1% and reduces the mean absolute error of weight prediction by 0.243 kg compared with training from scratch. The proposed method accurately estimate the degree of edema from facial images; our edema estimation system could thus be beneficial to dialysis patients.
translated by 谷歌翻译
Removing reverb from reverberant music is a necessary technique to clean up audio for downstream music manipulations. Reverberation of music contains two categories, natural reverb, and artificial reverb. Artificial reverb has a wider diversity than natural reverb due to its various parameter setups and reverberation types. However, recent supervised dereverberation methods may fail because they rely on sufficiently diverse and numerous pairs of reverberant observations and retrieved data for training in order to be generalizable to unseen observations during inference. To resolve these problems, we propose an unsupervised method that can remove a general kind of artificial reverb for music without requiring pairs of data for training. The proposed method is based on diffusion models, where it initializes the unknown reverberation operator with a conventional signal processing technique and simultaneously refines the estimate with the help of diffusion models. We show through objective and perceptual evaluations that our method outperforms the current leading vocal dereverberation benchmarks.
translated by 谷歌翻译
我们提出了一种基于多任务对抗训练的多扬声器神经文本到语音(TTS)模型的新型培训算法。传统的基于基于的训练算法的常规生成对抗网络(GAN)通过减少自然语音和合成语音之间的统计差异来显着提高合成语音的质量。但是,该算法不能保证训练有素的TTS模型的概括性能在综合培训数据中未包括的看不见的说话者的声音中。我们的算法替代训练两个深神经网络:多任务歧视器和多扬声器神经TTS模型(即GAN的生成器)。对歧视者的训练不仅是为了区分自然语音和合成语音,而且还存在验证输入语音的说话者的存在或不存在(即,通过插值可见的说话者的嵌入向量而新生成)。同时,对发电机进行了训练,以最大程度地减少语音重建损失的加权总和和欺骗歧视者的对抗性损失,即使目标扬声器看不见,也可以实现高质量的多演讲者TT。实验评估表明,我们的算法比传统的甘斯多克算法更好地提高了合成语音的质量。
translated by 谷歌翻译
本文提出了一种用于拆分计算的神经体系结构搜索(NAS)方法。拆分计算是一种新兴的机器学习推理技术,可解决在物联网系统中部署深度学习的隐私和延迟挑战。在拆分计算中,神经网络模型通过网络使用Edge服务器和IoT设备进行了分离和合作处理。因此,神经网络模型的体系结构显着影响通信有效载荷大小,模型准确性和计算负载。在本文中,我们解决了优化神经网络体系结构以进行拆分计算的挑战。为此,我们提出了NASC,该NASC共同探讨了最佳模型架构和一个拆分点,以达到延迟需求(即,计算和通信的总延迟较小,都比某个阈值较小)。 NASC采用单发NAS,不需要重复模型培训进行计算高效的体系结构搜索。我们使用硬件(HW) - 基准数据的NAS基础的绩效评估表明,拟议的NASC可以改善``通信潜伏期和模型准确性''的权衡,即,将延迟降低了约40-60%,从基线降低了约40-60%有轻微的精度降解。
translated by 谷歌翻译
我们提出了神经链,这是一个新颖的学习框架,用于对多视图图像输入进行准确的头发几何形状和外观进行建模。从任何观点都具有高保真视图依赖性效果,可以实时渲染学习的头发模型。我们的模型可实现直观的形状和风格控制,与体积同行不同。为了实现这些特性,我们提出了一种基于神经头皮纹理的新型头发表示,该神经头皮纹理编码每个Texel位置的单个链的几何形状和外观。此外,我们基于学习的头发链的栅格化引入了一个新型的神经渲染框架。我们的神经渲染是链的和抗氧化的,使渲染视图一致且逼真。将外观与多视图几何事先结合在一起,我们首次启用了外观的联合学习和从多视图设置的显式头发几何形状。我们证明了我们的方法在各种发型的忠诚度和效率方面的功效。
translated by 谷歌翻译
人的言语通常伴随着包括手臂和手势在内的身体手势。我们提出了一种方法,该方法将与目标语音音频相匹配的手势重新效果。我们方法的关键思想是通过编码剪辑之间的有效过渡的新型视频运动图从参考视频中拆分和重新组装剪辑。为了在重演中无缝连接不同的剪辑,我们提出了一个姿势感知的视频混合网络,该网络综合了两个剪辑之间的缝线框架周围的视频帧。此外,我们开发了一种基于音频的手势搜索算法,以找到重新成型帧的最佳顺序。我们的系统生成的重演与音频节奏和语音内容一致。我们定量,用户研究对综合视频质量进行评估,并证明我们的方法与以前的工作和基线相比,我们的方法与目标音频的质量和一致性更高。
translated by 谷歌翻译
神经体系结构搜索(NAS)旨在自动化体系结构设计过程并改善深神经网络的性能。平台感知的NAS方法同时考虑性能和复杂性,并且可以找到具有低计算资源的表现良好的体系结构。尽管普通的NAS方法由于模型培训的重复而导致了巨大的计算成本,但在搜索过程中,训练包含所有候选架构的超级网的权重训练了一杆NAS,据报道会导致搜索成本较低。这项研究着重于体系结构复杂性的单发NAS,该NA优化了由两个指标的加权总和组成的目标函数,例如预测性能和参数数量。在现有方法中,必须使用加权总和的不同系数多次运行架构搜索过程,以获得具有不同复杂性的多个体系结构。这项研究旨在降低与寻找多个体系结构相关的搜索成本。提出的方法使用多个分布来生成具有不同复杂性的体系结构,并使用基于重要性采样的多个分布获得的样本来更新每个分布。提出的方法使我们能够在单个体系结构搜索中获得具有不同复杂性的多个体系结构,从而降低了搜索成本。所提出的方法应用于CIAFR-10和Imagenet数据集上卷积神经网络的体系结构搜索。因此,与基线方法相比,提出的方法发现了多个复杂性不同的架构,同时需要减少计算工作。
translated by 谷歌翻译
逼真的触觉需要高保真的身体建模和忠实的驾驶才能使动态合成的外观与现实无法区分。在这项工作中,我们提出了一个端到端框架,该框架解决了建模和推动真实人的全身化身方面的两个核心挑战。一个挑战是驾驶头像,同时忠实地遵守细节和动态,而这些细节和动态无法被全球低维参数化(例如身体姿势)所捕捉。我们的方法支持驾驶穿着皱纹和运动的衣服化身,而真正的驾驶表演者展出了训练语料库。与现有的全局状态表示或非参数屏幕空间方法不同,我们介绍了Texel对准功能 - 一种本地化表示,可以利用基于骨架的参数模型的结构先验和同时观察到的稀疏图像信号。另一个挑战是建模临时连贯的衣服头像,通常需要精确的表面跟踪。为了避免这种情况,我们通过将体积原语的混合物扩展到清晰的物体,提出了一种新型的体积化头像表示。通过明确合并表达,我们的方法自然而然地概括了看不见的姿势。我们还介绍了局部视点条件,从而导致了依赖视图的外观的概括。拟议的体积表示不需要高质量的网格跟踪作为先决条件,并且与基于网格的对应物相比,具有显着的质量改进。在我们的实验中,我们仔细研究了我们的设计选择,并证明了方法的功效,超过了最新方法在挑战驾驶方案方面的最新方法。
translated by 谷歌翻译